Análise de Qualidade de Vinhos Tintos por Diogo da Silva Magalhães Gomes

Objetivos

O dataset ‘Análise de Qualidade de Vinhos Tintos’ foi selecionado em função de sua boa composição no conjunto de variáveis, e por sua boa didática na representação de conceitos que apresentem maior familiaridade para seu entendimento.

Os objetivos na elaboração deste trabalho são:

  • Entender a ‘distribuição’ de uma variável e como verificar a existência de ‘anomalias e outliers’.
  • Aprender como quantificar e visualizar variáveis de um conjunto de dados usando os gráficos apropriados, como ‘gráficos de dispersão, histogramas, gráficos de barra e box-plots’.
  • Explorar variáveis para ‘identificar as mais importantes’ e seus relacionamentos dentro de um conjunto de dados antes de construir um modelo preditivo; ‘calcular correlações’ e conduzir investigações condicionais.
  • Aprender métodos poderosos e visualizações para examinar o ‘relacionamento entre múltiplas variáveis’, como a reformatação de tabelas e o uso de cores e formas para descobrir ainda mais informações.

Analisando algumas estatísticas do Dataset

Inicialmente, serão analisadas rapidamente a estrutura geral e algumas estatísticas sobre o Dataset.

## 'data.frame':    1599 obs. of  13 variables:
##  $ X                   : int  1 2 3 4 5 6 7 8 9 10 ...
##  $ fixed.acidity       : num  7.4 7.8 7.8 11.2 7.4 7.4 7.9 7.3 7.8 7.5 ...
##  $ volatile.acidity    : num  0.7 0.88 0.76 0.28 0.7 0.66 0.6 0.65 0.58 0.5 ...
##  $ citric.acid         : num  0 0 0.04 0.56 0 0 0.06 0 0.02 0.36 ...
##  $ residual.sugar      : num  1.9 2.6 2.3 1.9 1.9 1.8 1.6 1.2 2 6.1 ...
##  $ chlorides           : num  0.076 0.098 0.092 0.075 0.076 0.075 0.069 0.065 0.073 0.071 ...
##  $ free.sulfur.dioxide : num  11 25 15 17 11 13 15 15 9 17 ...
##  $ total.sulfur.dioxide: num  34 67 54 60 34 40 59 21 18 102 ...
##  $ density             : num  0.998 0.997 0.997 0.998 0.998 ...
##  $ pH                  : num  3.51 3.2 3.26 3.16 3.51 3.51 3.3 3.39 3.36 3.35 ...
##  $ sulphates           : num  0.56 0.68 0.65 0.58 0.56 0.56 0.46 0.47 0.57 0.8 ...
##  $ alcohol             : num  9.4 9.8 9.8 9.8 9.4 9.4 9.4 10 9.5 10.5 ...
##  $ quality             : int  5 5 5 6 5 5 5 7 7 5 ...

Visualização de algumas estatísticas do Dataset.

##        X          fixed.acidity   volatile.acidity  citric.acid   
##  Min.   :   1.0   Min.   : 4.60   Min.   :0.1200   Min.   :0.000  
##  1st Qu.: 400.5   1st Qu.: 7.10   1st Qu.:0.3900   1st Qu.:0.090  
##  Median : 800.0   Median : 7.90   Median :0.5200   Median :0.260  
##  Mean   : 800.0   Mean   : 8.32   Mean   :0.5278   Mean   :0.271  
##  3rd Qu.:1199.5   3rd Qu.: 9.20   3rd Qu.:0.6400   3rd Qu.:0.420  
##  Max.   :1599.0   Max.   :15.90   Max.   :1.5800   Max.   :1.000  
##  residual.sugar     chlorides       free.sulfur.dioxide
##  Min.   : 0.900   Min.   :0.01200   Min.   : 1.00      
##  1st Qu.: 1.900   1st Qu.:0.07000   1st Qu.: 7.00      
##  Median : 2.200   Median :0.07900   Median :14.00      
##  Mean   : 2.539   Mean   :0.08747   Mean   :15.87      
##  3rd Qu.: 2.600   3rd Qu.:0.09000   3rd Qu.:21.00      
##  Max.   :15.500   Max.   :0.61100   Max.   :72.00      
##  total.sulfur.dioxide    density             pH          sulphates     
##  Min.   :  6.00       Min.   :0.9901   Min.   :2.740   Min.   :0.3300  
##  1st Qu.: 22.00       1st Qu.:0.9956   1st Qu.:3.210   1st Qu.:0.5500  
##  Median : 38.00       Median :0.9968   Median :3.310   Median :0.6200  
##  Mean   : 46.47       Mean   :0.9967   Mean   :3.311   Mean   :0.6581  
##  3rd Qu.: 62.00       3rd Qu.:0.9978   3rd Qu.:3.400   3rd Qu.:0.7300  
##  Max.   :289.00       Max.   :1.0037   Max.   :4.010   Max.   :2.0000  
##     alcohol         quality     
##  Min.   : 8.40   Min.   :3.000  
##  1st Qu.: 9.50   1st Qu.:5.000  
##  Median :10.20   Median :6.000  
##  Mean   :10.42   Mean   :5.636  
##  3rd Qu.:11.10   3rd Qu.:6.000  
##  Max.   :14.90   Max.   :8.000

Seção de Gráficos Univariados

O primeiro passo, portanto, é visualizar a distribuição de cada variável, a fim de se obter uma visão geral sobre cada uma delas.

Primeiramente, cabe analisar o histograma para a variável quality, que é a nossa variável de interesse para esse dataset.

Observa-se que a curva do gráfico assemelha-se a uma distribuição normal. Cabe ressaltar, portanto, uma grande concentração de avaliações em torno das notas 5-6. Isto demonstra haver poucos exemplos de vinhos de qualidade ótima. Espero que apesar do número baixo de exemplares nessas condições, seja possível inferir as relações das propriedades que determinam esse requisito de qualidade.

## [1] "Quantidade de observações no dataset para cada fator de qualidade (entre 3 e 8)"
## 
##   3   4   5   6   7   8 
##  10  53 681 638 199  18

Dando prosseguimento na análise, vamos plotar um gráfico de histograma para cada uma das variáveis. Observa-se que algumas variáveis estão normalmente distribuídas, enquanto outras não.

BoxPlot para cada variável

Neste ponto, é interessante plotar também uma matriz contendo o gráfico de boxplot para cada variável, a fim de visualizar algumas informações estatísticas sobre a distribuição e verificar a presença de outliers.

Análise Univariada

Qual é a estrutura do conjunto de dados?

Observa-se que o dataset é composto por 13 colunas, contendo o total de 1599 linhas de análises de vinhos tintos. Porém, a primeira coluna (variável X) refere-se ao código da observação, e não deve contribuir com informações úteis para a análise. A última coluna (variável quality) representa a variável de interesse para este dataset, descrevendo o resultado da avaliação de qualidade atribuído para cada amostra.

Portanto, há 11 propriedades químicas utilizadas como critérios para determinar a qualidade do vinho, associado à variável quality. Observa-se que essa variável é caracterizada por valores discretos, variando na prática entre 3 (mínimo) e 8 (máximo) neste dataset.

Quais são os principais atributos de interesse deste conjunto de dados?

O principal atributo do dataset é a variável quality, que determina o fator de qualidade atribuído para cada samostra do dataset. Cabe analisar de que maneira cada uma das outras variáveis pode contribuir de forma positiva ou negativa para esse critério de qualidade

Quais outros atributos você acha que podem lhe auxiliar na investigação destes atributos de interesse?

Nessa fase, as percepções são ainda empíricas, devendo-se analisar matematicamente a forma como as variáveis contribuem para a qualidade. Porém, em uma análise prévia, suspeito que a a similaridade dos histogramas das variáveis pH, density e alcohol com a variável quality possam indicar alguma relação, o que precisa ser confirmado em uma análise mais detalhada.

Você criou novas variáveis a partir dos atributos existentes no conjunto de dados?

Neste momento inicial não achei necessário criar novas variáveis, o que pode vir a ser realizado no decorrer da análise.

Dos atributos investigados, distribuições incomuns foram encontradas? Você aplicou operações nos dados para limpá-los, ajustá-los ou mudar a forma dos dados? Se sim, por quê?

Cabe destacar a forma como se concentram as avaliações de vinhos para a variável quality. Nota-se que uma enorme quantidade de avaliações atribui uma nota intermediária, com valores entre 5 e 6. Não há nenhuma avaliação menor que 3 ou maior que 8. Ainda assim, há poucos exemplos de avaliações com nota 3 (apenas 10 linhas) e igualmente poucas avaliações com nota 8 (apenas 18). Espero que o baixo número de exemplares para essas condições não comprometa a análise.

Pelo gráfico de BoxPlot é possível observar a presença de outliers em todas as variáveis. As variáveis alcohol e density possuem relativamente poucos outliers, enquanto o boxplot das variáveis chlorides e residual.sugar demonstram a forte presença de outliers.

Algumas distribuições são normais, como density, pH e a própria variável quality. Outras variáveis possuem uma forma semelhante à distribuição normal, porém ainda com muitos outliers criando uma cauda longa, como chlorides e residual.sugar. Neste ponto, cabe ressaltar a forma conceitual da variável pH, que naturalmente é expressa na base log10.

Seção de Gráficos Bivariados

Inicialmente, vamos observar a tabela de correlação entre as variáveis. Neste ponto, é conveniente eliminar a variável X, que não contribui com informações úteis para a análise.

wineDataset$X <- NULL
##                      fixed.acidity volatile.acidity citric.acid
## fixed.acidity                 1.00            -0.26        0.67
## volatile.acidity             -0.26             1.00       -0.55
## citric.acid                   0.67            -0.55        1.00
## residual.sugar                0.11             0.00        0.14
## chlorides                     0.09             0.06        0.20
## free.sulfur.dioxide          -0.15            -0.01       -0.06
## total.sulfur.dioxide         -0.11             0.08        0.04
## density                       0.67             0.02        0.36
## pH                           -0.68             0.23       -0.54
## sulphates                     0.18            -0.26        0.31
## alcohol                      -0.06            -0.20        0.11
## quality                       0.12            -0.39        0.23
##                      residual.sugar chlorides free.sulfur.dioxide
## fixed.acidity                  0.11      0.09               -0.15
## volatile.acidity               0.00      0.06               -0.01
## citric.acid                    0.14      0.20               -0.06
## residual.sugar                 1.00      0.06                0.19
## chlorides                      0.06      1.00                0.01
## free.sulfur.dioxide            0.19      0.01                1.00
## total.sulfur.dioxide           0.20      0.05                0.67
## density                        0.36      0.20               -0.02
## pH                            -0.09     -0.27                0.07
## sulphates                      0.01      0.37                0.05
## alcohol                        0.04     -0.22               -0.07
## quality                        0.01     -0.13               -0.05
##                      total.sulfur.dioxide density    pH sulphates alcohol
## fixed.acidity                       -0.11    0.67 -0.68      0.18   -0.06
## volatile.acidity                     0.08    0.02  0.23     -0.26   -0.20
## citric.acid                          0.04    0.36 -0.54      0.31    0.11
## residual.sugar                       0.20    0.36 -0.09      0.01    0.04
## chlorides                            0.05    0.20 -0.27      0.37   -0.22
## free.sulfur.dioxide                  0.67   -0.02  0.07      0.05   -0.07
## total.sulfur.dioxide                 1.00    0.07 -0.07      0.04   -0.21
## density                              0.07    1.00 -0.34      0.15   -0.50
## pH                                  -0.07   -0.34  1.00     -0.20    0.21
## sulphates                            0.04    0.15 -0.20      1.00    0.09
## alcohol                             -0.21   -0.50  0.21      0.09    1.00
## quality                             -0.19   -0.17 -0.06      0.25    0.48
##                      quality
## fixed.acidity           0.12
## volatile.acidity       -0.39
## citric.acid             0.23
## residual.sugar          0.01
## chlorides              -0.13
## free.sulfur.dioxide    -0.05
## total.sulfur.dioxide   -0.19
## density                -0.17
## pH                     -0.06
## sulphates               0.25
## alcohol                 0.48
## quality                 1.00

A tabela acima mostra os coeficientes de correlação entre as variáveis utilizando-se o método PEARSON. Esse coeficiente varia no intervalo de -1 (forte correlação negativa) a 1 (forte correlação positiva), sendo o valor 0 indicativo que não há correlação entre as variáveis. NEsses termos, caso duas variáveis possuam correlação positiva, isso implica dizer que se o valor de uma variável aumenta, a outra variável também aumenta. Uma correlação negativa indica que quando uma variável aumenta, a outra decresce.

Embora seja possível observar algumas informações úteis, fica difícil obter uma mehor interpretação e visualização das correlações como um todo.

Na tabela abaixo, vamos nos concentrar apenas nas correlações das propriedades de entrada com a variável quality.

##                       [,1]
## fixed.acidity         0.12
## volatile.acidity     -0.39
## citric.acid           0.23
## residual.sugar        0.01
## chlorides            -0.13
## free.sulfur.dioxide  -0.05
## total.sulfur.dioxide -0.19
## density              -0.17
## pH                   -0.06
## sulphates             0.25
## alcohol               0.48

Segundo essa tabela, as variáveis com maior correlação com a qualidade são, nesta ordem:

Gráfico da matriz de correlação

Vamos agora buscar uma interpretação mais visual, usando uma representação gráfica da matriz de correlações, para melhor visualização das principais correlações.

A partir deste gráfico, podemos destacar:

  • Em um primeiro momento, procuramos observar quais variáveis estariam mais diretamente correlacionadas com a variável de qualidade. Analisando o gráfico e as tabelas anteriores, observa-se que a variável quality possui forte correlações positicas com alcohol, sulphates e citric.acid.
  • Por outro lado, possui uma forte correlação negativa com volatile.acid, o que quer dizer que tanto maior é o valor desta propriedade, menor é a qualidade do vinho.
  • Pode-se perceber também a correlação entre variáveis de entrada, como fixed.acidity e density, citric.acid e fixed.acid, free.sulfur.dioxide e total.sulfur.dioxide. - Há ainda correlações negativas entre pH e fixed.acid, density e alcohol. citric.acid e pH.

Scatterplots

Vamos complementar a análise usando alguns scatterplots, descrevendo as propriedades de entrada em relação à variável quality

OS gráficos nos permitem visualizar algumas das caracteristicas já anteriormente discutidas, como a forte correlação positiva entre alcohol e quality. Adicionalmente, podemos verificar a correlação negativa entre volatile.acid e quality, indicando que essa variável afeta negativamente a qualidade do vinho.

Análise Bivariada

Discuta sobre alguns dos relacionamentos observados nesta parte da investigação. Como os atributos de interesse variaram no conjunto de dados?

Para esta análise, observei a correlação entre as variáveis utilizando o coeficiente de correlação calculado com o método Pearson. Este coeficiente varia no intervalo de -1 (forte correlação negativa) a 1 (forte correlação positiva), sendo o valor 0 indicativo que não há correlação entre as variáveis. Utilizei esse mesmo método para calcular a correlação de cada variável com a variável de interesse quality, de forma a identificar quais propriedades podem influenciar mais significativamente a qualidade do vinho.

Adicionalmente, utilizei um gráfico contendo a matriz de correlação, a fim de obter uma representação mais visual dessas relações e assim obter uma interpretação mais rápida e fácil na identificação das correlações mais fortes (que poderiam então ser confirmadas pelos coeficientes mostrados na tabela completa).

Em seguida, utilizei gráficos de scatterplot para observar a distribuição dos elementos de cada pripriedade com a variável quality.

Com base nesses recursos, cabe destacar as variáveis com maior correlação com a qualidade do produto, nesta ordem:

  • alcohol
  • volatile.acidity (correlação negativa)
  • sulphates
  • citric.acid.

Essa correlação pode ser visualmente observada no destaque do gráfico abaixo:

Você observou algum relacionamento interessante entre os outros atributos (os que não são de interesse)?

Cabe destacar a correlação entre algumas das propriedades observadas nas análises dos vinhos. Entre elas, destacam-se:

Há uma forte correlação positiva entre as seguintes variáveis:

  • fixed.acidity e density
  • fixed.acidity e citric.acid
  • free.sulfur.dioxide e total.sulfur.dioxide.

Há ainda correlações negativas observadas entre:

- `pH` e `fixed.acid`
- `density` e `alcohol`
- `citric.acid` e `pH`.  

Visualmente, essas correlações podem ser representadas pelo gráfico abaixo:

Qual foi o relacionamento mais forte encontrado?

O relacionamento mais forte encontrado em relação à variável de interesse quality foi com a variável alcohol, com coeficiente Pearson de 0.48. Porém, logo a seguir, a variável volatile.acidity apresenta coeficiente de correlação -0.39, indicando uma correlação negativa que não deve ser ignorada.

Entre as propriedades de entrada, cabe destacar o forte relacionamento encontrado entre as variáveis:

  • fixed.acidity e pH
  • fixed.acidity e density
  • fixed.acidity e citric.acid
  • citric.acid e pH
  • free.sulfur.dioxide e total.sulfur.dioxide
  • density e alcohol

Visualmente, essas correlações podems er representadas pelo gráfico abaixo:

Seção de Gráficos Multivariados

Nesta seção, irei analisar a relação entre diferentes características do vinho, e como elas podem influenciar em conjunto a qualidade analisada. Em especial, inicialmente vou focar nas variáveis alcohol e volatile.acidity, que possuem maiores índices de correlação com a qualidade.

Primeiramente, vamos gerar o scatterplot entre a variável alcohol e as demais variaveis, considerando a variavel quality.

Plotando scatterplots de volatile.acidity e as demais varáveis.

Destacando especialmente a relação de alcohol com volatile.acid e com sulphates em relação a quality

Observa-se uma melhor qualidade do vinho quanto mais houver alcohol e menos volatile.acidity. Por outro lado, uma melhor qualidade é observada quanto mais houver sulphates e alcohol.

Adicionalmente, vamos plotar alguns BoxPlots nara verificar a relação de alcohol e volatile.acidity com a qualidade.

No gráfico abaixo, vamos nos concentrar apenas nos vinhos de pior e de melhor qualidade, descartando todas as avaliações medianas (5 e 6). O objetivo é tornar mais clara a visualização de como essas relações impactam efetivamente na qualidade do vinho.

O gráfico acima representa visualmente como a qualidade é fortemente afetada pelos atributos alcohol e volatile.acidity.

Nota-se a presença das melhores avaliações (em azul) na região onde alcohol é alto e volatile.acidity é baixo.

De maneira inversa, as piores avaliações de qualidade (em vermelho) situam-se na região com baixo teor de alcohol e maior valor de volatile.acidity.

Portanto, é possível afirmar que um vinho de melhor qualidade é obtido a partir da combinação de uma alta concentração de alcohol com um baixo valor de volatile.acidity.

Discuta sobre os relacionamentos observados nesta parte da investigação. Quais atributos que fortaleceram os demais na observação das variáveis de interesse?

Nesta seção, fiz uso de scatterplots e boxplots para analisar as relações entre os pares das diferentes propriedades analisadas, e como essa combinação influenciam na qualidade do vinho. Como já anteriormente observado, pode se comprovar a influencia principalmente das propriedades quality e volatile.acidity para determinação da qualidade. Os gráficos de boxplot se mostraram particularmente úteis para confirmar as percepções observadas nos gráficos anteriores.

Interações surpreendentes e/ou interessantes foram encontradas entre os atributos?

Uma interação particularmente interessante, embora não seja especificamente surpreendente (considerando que ela foi identificada logo no início da análise), é a forte influência do teor de álcool para determinação de um vinho de melhor qualidade. Embora não seja conhecedor do assunto, não esperava uma relação direta tão forte.

Considerando um pressentimento pessoal, embora ratificando que não seja conhecedor do assunto, eu esperava encontrar uma relação direta da propriedade density com a qualidade do vinho. Curiosamente, imaginando um modelo mental preconcebido, imaginava que vinhos mais densos (que eu associava ao termo ‘encorpados’), poderiam sugerir uma melhor qualidade. Contrariamente, os dados mostraram justamente uma relação inversa entre densidade e a qualidade do vinho. De forma semelhante, também esperava encontrar uma relação entre residual.sugar e qualidade, porém os dados confirmaram não haver correlação praticamente nenhuma entre essas variáveis, conforme novamente destacado no gráfico abaixo:

OPCIONAL: Modelos foram criados usando este conjunto de dados? Discuta sobre os pontos fortes e as limitações do seu modelo.

Vamos experimentar a criação de um modelo linear simples e uma árevore de decisão, para tentar predizer a qualidade do vinho a partir de suas propriedades.

Primeiro, um modelo utilizando árvore de decisão (Random Forest)

## randomForest 4.6-14
## Type rfNews() to see new features/changes/bug fixes.
## 
## Attaching package: 'randomForest'
## The following object is masked from 'package:gridExtra':
## 
##     combine
## The following object is masked from 'package:dplyr':
## 
##     combine
## The following object is masked from 'package:ggplot2':
## 
##     margin
## 
## Call:
##  randomForest(formula = quality ~ alcohol + volatile.acidity +      sulphates + chlorides + fixed.acidity + citric.acid + pH +      density, data = wineDataset) 
##                Type of random forest: regression
##                      Number of trees: 500
## No. of variables tried at each split: 2
## 
##           Mean of squared residuals: 0.3269373
##                     % Var explained: 49.84
##                  IncNodePurity
## alcohol              206.17258
## volatile.acidity     149.13488
## sulphates            150.42548
## chlorides             94.12724
## fixed.acidity         85.83023
## citric.acid           91.42603
## pH                    79.63335
## density              114.54186

Agora, vamos experimentar um modelo linear multivariável:

## 
## Call:
## lm(formula = quality ~ alcohol + volatile.acidity + sulphates + 
##     chlorides + fixed.acidity + citric.acid + pH + density, data = wineDataset)
## 
## Coefficients:
##      (Intercept)           alcohol  volatile.acidity         sulphates  
##          18.7660            0.2986           -1.1968            0.8702  
##        chlorides     fixed.acidity       citric.acid                pH  
##          -1.5935            0.0457           -0.3538           -0.2948  
##          density  
##         -15.4025
## 
## Call:
## lm(formula = quality ~ alcohol + volatile.acidity + sulphates + 
##     chlorides + fixed.acidity + citric.acid + pH + density, data = wineDataset)
## 
## Residuals:
##      Min       1Q   Median       3Q      Max 
## -2.66676 -0.36610 -0.05857  0.45727  1.99004 
## 
## Coefficients:
##                   Estimate Std. Error t value Pr(>|t|)    
## (Intercept)       18.76599   16.93762   1.108 0.268052    
## alcohol            0.29860    0.02297  12.997  < 2e-16 ***
## volatile.acidity  -1.19679    0.11891 -10.065  < 2e-16 ***
## sulphates          0.87025    0.11242   7.741 1.74e-14 ***
## chlorides         -1.59354    0.41705  -3.821 0.000138 ***
## fixed.acidity      0.04570    0.02231   2.048 0.040692 *  
## citric.acid       -0.35376    0.14239  -2.484 0.013077 *  
## pH                -0.29477    0.17730  -1.663 0.096597 .  
## density          -15.40247   17.26879  -0.892 0.372568    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.6519 on 1590 degrees of freedom
## Multiple R-squared:  0.3516, Adjusted R-squared:  0.3484 
## F-statistic: 107.8 on 8 and 1590 DF,  p-value: < 2.2e-16

Tentei criar modelos de predição para a variável quality, utilizando as principais propriedades de entrada identificadas nas seções antereiores. Para isso, utilizei duas abordagens diferentes: uma regressão linear multivariável, e uma árvore de decisão RandomForest.

Porém, para ambos os casos, os resultados não foram muito bons, considerando o valor final de R-squared (0.327 e 0.351, respectivamente). Porém, esse valor relativamente baixo poderia ser explicado a partir dos gráficos Scatterplots anteriormente gerados, em que há uma distribuição muito dispersa dos valores para uma mesma qualidade, podendo influenciar assim no cálculo dessa métrica.

Outro problema para a geração dos modelos pode ter sido a baixa representatividade de valores para os extremos da variável quality. Ou seja, há poucos exemplos para vinhos muito bem ou muito mal avaliados (notas 3 ou 8, por exemplo), e os dados existentes podem ter sido insuficientes para que o modelo conseguisse obter uma boa generalização.

Portanto, a utilização de modelos preditores precisaria ser analisado com maior cautela para este dataset.


Gráficos Finais e Sumário

Primeiro Gráfico

Descrição do Primeiro Gráfico

Este primeiro gráfico pode ser considerado o mais significativo para iniciar o processo de análise, visualizando o histograma geral de observações contidas no dataset em relação à variável quality.

Este gráfico já destacou, desde o princípio, a grande concentração em avaliações medianas, com relativa baixa representatividade de observações para qualidades muito boas (notas 7-8), e para qualidades muito ruins (notas 3 e 4).

Segundo Gráfico

Descrição do Segundo Gráfico

Esta matriz de correlação foi extremamente importante para se obter uma visão geral da forma como as variáveis estão correlacionadas. Embora eu já tivesse a tabela com os valores de correlação entre cada uma das variáveis, esse gráfico permitiu, de uma forma muito simples e intuitiva, direcionar minha atenção diretamente para as correlações mais representativas.

A princípio, pude focar em quais variáveis apresentavam maior correlação com a variável de interesse quality. Em seguida, pude atentar para as principais correlações entre as diferentes propriedades, facilmente identificável a partir das cores e tamanhos dos itens na matriz.

Terceiro Gráfico

Descrição do Terceiro Gráfico

Esse gráfico talvez seja o mais representativo da análise, à medida em que destaca as mais fortes correlações das propriedades alcohol e volatile.acidity, considerando a qualidade do vinho. Uma vez caracterizado que essas propriedades são as que mais influenciam na qualidade final, é possível afirmar que um vinho tinto possui uma melhor qualidade a partir da combinação de uma maior concentração de alcohol com um menor valor de volatile.acidity.


Reflexão

A partir dessa análise de dados exploratória, foi possível identificar, observando apenas os dados contidos nos datasets, quais as variáveis que mais influenciam para a obtenção de um vinho de melhor qualidade. Foi possível combinar a observação de coeficientes estatisticamente calculados, com sua correspondente visualização (e confirmação) em diferentes visualizações gráficas, como matrizes de correlação, scatterplots e boxplots.

Como sou leigo no assunto vinhos, meu desconhecimento a princípio me deixou inseguro sobre minha capacidade de realizar uma análise a este respeito. Porém, os dados se mostraram suficientes para inferir observações importantes e contundentes a respeito das principais propriedades desse produto.